调整峰值性能70WT解读:4090 D、AI PC真会受限吗?
摘要:“Adjusted Peak Performance” (“APP”) exceeding 70 Weighted TeraFLOPS (WT),这里的单位应该是针对FP64双精度浮点。也就是针对HPC高性能计算。
背景参考《NVIDIA AI性能计算更正:为什么RTX 4090抢购,而工作站A6000相对乐观?》
我本来还是不太想蹭这个热点,但这几天陆续有同事问我。查阅资料之后,发现近几天网上看到的新闻可能有误读,所以就把我理解的信息跟大家分享一下。
首先是这份 “主禁令” 的更新:编号没有变还是RIN 0694-AI94,日期更新为,日期更新为240321。接着看下面这条新闻中写的:
对于“Adjusted Peak Performance” (“APP”) exceeding 70 Weighted TeraFLOPS (WT),该新闻里的理解是“似乎”与FP16/FP32或TF32有关,真的是这样吗?
我又把去年[Docket No. 231013-0248]那个版本的RIN 0694-AI94文档翻出来,其中也提到了70 WT,写着“29 Weighted TeraFLOPS (WT) 的限制快要被提高到70 WT”。——这段描述在最新的[Docket No. 240321-0084]文档中没有了,余下关于3A090、4A003的描述我并没有看出区别。
剩下的焦点,就是70 WT指的是什么计算类型(浮点精度)?
我找了一份在3月13日更新的Commerce Control List(CCL4)文档,里面提到了APP指的是64位浮点操作。还提到了一个计算中的系数,“针对“vector processors”(矢量处理器),Wi=0.9;针对非矢量处理器,Wi=0.3”。
具体计算方法,大家可以参考下上图,我就不展开了。因为能买到的NVIDIA GPU,双精度浮点几乎都“砍掉”了(如下图中的H800)。所以这个WT无论是20多还是70,对于4090 D和AI PC又能有什么影响呢?
扩展阅读:《企业存储技术》文章分类索引(微信公众号专辑)》
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流可加微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage
长按二维码可直接识别关注
历史文章汇总:http://www.toutiao.com/c/user/5821930387/
http://www.zhihu.com/column/huangliang
点击下方“阅读原文”,查看更多历史文章↓↓↓